В этом модуле мы переходим от традиционной парадигмы настройки по весам к динамическому миру контекстного обучения (ICL). Мы исследуем, как большие языковые модели (LLM) достигают мастерства в задачах, не изменяя свою внутреннюю архитектуру, а используя структуру подсказки для навигации по сложным скрытым пространствам.
1. От рассказа к показу
Хотя инструкция даёт общее направление, «имитация» через пары вход-выход $(x, y)$ выступает в роли непараметрического ориентира. Эти примеры служат статистическими узлами, сужающими вероятностное распределение модели, снижая неопределённость, присущую исходным естественным языкам.
2. Механика внимания
Контекстное обучение (ICL) полагается на механизм внимания трансформера для выполнения «индукции задачи». Определяя регулярности в вашей последовательности, модель находит конкретное функциональное соответствие в высокомерном пространстве, позволяя точно имитировать стили и структуры.
Goal: Provide a three-exemplar few-shot prompt that teaches the model a specific "Concise Executive" style, rather than just a generic professional tone.
Adjectives like "Concise" are subjective and have broad probability distributions; examples provide a concrete structural template that the attention mechanism can emulate with mathematical precision.